Národní úložiště šedé literatury Nalezeno 77 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Multi-label klasifikace textových dokumentů
Průša, Petr ; Očenášek, Pavel (oponent) ; Bartík, Vladimír (vedoucí práce)
Diplomová práce se zabývá automatickou klasifikací textových dokumentů. Jsou zde vysvětleny základní pojmy a problémy dolování z textu. Práce vysvětluje pojem shlukování a ukazuje několik základních algoritmů shlukování. Je zde ukázáno i několik metod klasifikace a podrobně je rozebrána vybraná metoda matrix regression. Dále byla navrhnuta a implementována aplikace používající ke klasifikaci matrix regression. Provedené experimenty byly zaměřeny na normalizaci a prahování.
Metody dolování dat pro analýzu textů
Kozák, Ondřej ; Marcoň, Petr (oponent) ; Dohnal, Přemysl (vedoucí práce)
Tato bakalářská práce se zabývá prozkoumáním aktuální metodiky a možností textového dolování a následné aplikace některých metod. V rámci práce byly popsány metody pro předzpracování, metody pro převedení textu do vektorového prostoru a metody pro analýzu textu a diskutováno jejich možné použití. Na text byly použity jednotlivé metody pro předzpracování a následně bylo demonstrováno převedení do vektorového prostoru jednoduchými metodami jako jsou BOW, Bag of n-grams, TF-IDF nebo metodami se strojovým učením které jsou FastText a GloVe. Na získané vektory byly použity metody LSA, LDA, TextRank, kosinová podobnost, pro získání informací z textu.
Shlukování textových dat
Leixner, Petr ; Burgetová, Ivana (oponent) ; Bartík, Vladimír (vedoucí práce)
Proces shlukování textových dat slouží pro analýzu, navigaci a strukturování velkých kolekcí textů nebo hypertextových dokumentů. Úkolem shlukování je rozklad množiny dokumentů do shluků na základě jejich podobnosti. Nejznámější metody z této oblasti dolování však neřeší specifické problémy textového shlukování, jako vysokou dimenzionalitu vstupních dat, velmi velkou velikost databází a srozumitelnost popisu shluků. Tato práce se zabývá uvedenou problematikou a popisuje moderní metodu shlukování textových dat založenou na použití frekventovaných množin termů, která se svým přístupem snaží řešit nedostatky jiných shlukovacích metod.
Využití metod dolování dat pro analýzu sociálních sítí
Novosad, Andrej ; Očenášek, Pavel (oponent) ; Bartík, Vladimír (vedoucí práce)
Práce se zabývá problematikou dolování dat v prostředí sociálních sítí. Podává přehled o dolování z dat a možných metodách dolování. Práce také zkoumá sociální média a sítě, co mohou poskytnout a jaké problémy se sebou přinášejí. Jsou prozkoumané API třech sociálních sítí a jejich možnosti z hlediska získání dat vhodných pro dolování. Zkoumají se techniky dolování znalostí z textových dat. Je popsán způsob implementace webové aplikace, která doluje data ze sociální sítě Twitter pomoci algoritmu SVM. Implementovaná aplikace klasifikuje zprávy na základě jejich textu do tříd reprezentujících kontinenty původu. Je provedeno několik experimentů v softwaru RapidMiner a v implementované webové aplikaci a jejich výsledky jsou prozkoumány.
Analýza obsahu sociálních sítí týkající se českých mobilních operátorů
Pavlů, Jan ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Tato práce se zabývá analýzou postojů u příspěvků ze sociálních sítí týkajících se českých mobilních operátorů. Kromě analýzy postojů se zaměřuje na vizualizací stažených a analyzovaných dat. Analýza postojů je provedena za pomocí strojového učení s učitelem. Po stažení jsou příspěvky očištěny, lemmatizovány a převedeny na vektor příznaků. Pro klasifikaci se využívá Stochastic Gradient Descent. Analyzovaná data jsou zobrazena jak ve formě diagramů, tak ve tvaru seznamu příspěvků. Systém poskytuje i automatické přiřazení kategorií příspěvkům pomocí stejného principu. Při přiřazení postojů systém dosahuje úspěšnosti okolo 75%. Při přiřazení kategorií je sice vysoká přesnost (kolem 80%), ale nízká preciznost, navrátovost a F1 score(20% - 30%). Proto se automaticky neprovádí. Přínosem systému je, dokáže automaticky sbírat data z různých zdrojů, ta analyzovat a přehledně zobrazit. Také poskytuje prostředky, jak manuálně měnit přířazené hodnocení/kategori, což při občasném zásahu uživatele povede k postupnému zlepšování charakteristik systému.
Extrakce klíčových slov z dokumentů
Matička, Jiří ; Očenášek, Pavel (oponent) ; Bartík, Vladimír (vedoucí práce)
Práce se zabývá automatickou extrakcí klíčových slov z dokumentů. Jejím cílem je návrh a implementace aplikace, která bude schopná z dokumentu vyextrahovat množinu klíčových slov vyjadřující co nejpřesněji hlavní obsah dokumentu. Mezi požadavky na aplikaci patří zejména rychlost a přesnost. Proto byly nejprve prostudovány již existující principy a provedena klasifikace metod na základě různých kritérií. Další část práce se zaměřuje na výběr a podrobný popis funkčnosti jedné z metod, která by měla být využita při extrahování klíčových slov. Následuje podrobný návrh celé aplikace a její následná implementace. Důležitá je hlavně poslední kapitola zabývající se testováním aplikace na množině textových dokumentů a vyhodnocením úspěšnosti procesu extrakce.
Metody stemmingu používané při dolování textu
Adámek, Tomáš ; Chmelař, Petr (oponent) ; Bartík, Vladimír (vedoucí práce)
Tématem této diplomové práce je problematika jednotlivých metod pro dolování z anglických textových dokumentů. Hlavní část této práce se zabývá analýzou metod pro předzpracování textu, konkrétně stemmingem. Jsou zde rozebrány jednotlivé algoritmy stemmingu (Lovinsův, Porterův a Paice/Husk), které z jednotlivých slov textového dokumentu získávají jejich základní tvar (kořen), za použití speciálních lexikografických pravidel anglického jazyka. Tyto kořeny slov jsou následně uloženy do strukturované podoby pro další zpracování. Další část práce se zabývá návrhem aplikace, která tyto algoritmy využívá pro svoji činnost. Aplikace je postavena na platformě Java s využitím grafické knihovny Swing a architektury MVC. Další kapitola popisuje implementaci navržené aplikace a stemovacích algoritmů v jazyce Java. Poslední kapitola je zaměřena na experimenty s jednotlivými algoritmy a jejich srovnání z hlediska vlivu na výsledky klasifikace textu.
Analýza sentimentu s využitím dolování dat
Sychra, Martin ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce)
Obsahem práce je analýza sentimentu, především z informatického hlediska (okrajově z hlediska lingvistického). V lingvistické části je rozebrán pojem sentiment a jazykové metody pro jeho analýzu, např. lemmatizace, POS tagging, využití seznamu stopwords apod. Větší pozornost je následně věnována struktuře analyzátoru sentimentu, který je založen na některé z metod strojového učení (metoda podpůrných vektorů, naivní Bayesův klasifikátor a klasifikátor maximální entropie). Na základě teoretických východisek je navržen a implementován funkční analyzátor. Experimenty jsou zaměřeny především na porovnání klasifikačních metod a přínos využití jednotlivých metod předzpracování. Úspěšnost sestrojeného klasifikátoru dosahuje až 84 % v křížové validaci.
Určení základního tvaru slova
Šanda, Pavel ; Burget, Radim (oponent) ; Karásek, Jan (vedoucí práce)
Lemmatizace je důležitou procedurou před dolováním v textu v mnoha aplikacích. Proces lemmatizace je podobný procesu stemmingu, s tím rozdílem, že neurčuje pouze kořen slova, ale snaží se slovo převést pomocí metod Brute Force a Suffix Stripping do jeho základního tvaru. Hlavním cílem této práce je prezentovat metody pro vylepšení algoritmů lemmatizace českého jazyka. Obsahem je vytvoření trénovací množiny dat, kterou lze libovolně použít pro studentské i vědecké práce zabývající se podobnou problematikou.
Získávání znalostí z textových dat v prostředí jazyka Python
Homola, Ján ; Hynek, Jiří (oponent) ; Bartík, Vladimír (vedoucí práce)
Táto bakalárska práca sa zaoberá získavaním znalostí z textových dát, konkrétnejšie klasifikáciou textových recenzií užívateľov. Pomocou experimentov sa táto práca zameriava na metódy predspracovania textových dát a na porovnanie jednotlivých klasifikačných metód prostredníctvom vybraných dátových sád. Záverom práce je zhodnotenie dosiahnutých výsledkov experimentov, ktoré boli vykonané pomocou implementovanej aplikácie.

Národní úložiště šedé literatury : Nalezeno 77 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.